Large language model scoring of medical student reflection essays: Accuracy and reproducibility of prompt-model variations
Die Studie zeigt, dass Large Language Models medizinische Reflexionsaufsätze mit nahezu perfekter Genauigkeit und Reproduzierbarkeit bewerten können, wobei feingestimmte Modelle und Prompts mit Beispielen zwar präziser, aber auch kostspieliger sind, während nicht-feingestimmte Modelle für kleinere Volumina eine kosteneffiziente Alternative bieten.